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摘要 :， 中 国 古 代 天 象 记录 是 世界 上 独一无二 的 天 文 观测 数据 宝库 ， 具 有 十 分 重要 的 科学 价 
值 。 近 年 来 ， 随 着 天 文 观 测 与 理论 的 快速 发 展 ， 对 历史 超新星 、 太 阳 活 动 周期 等 问题 的 研究 有 
了 许多 新 的 进展 。 但 十 代 天 象 记录 的 整理 工作 还 停留 在 上 世纪 和 八 十 年 代 末 的 水 平 ， 在 信息 利用 
方面 存在 检索 不 便 、 文 献 不 全 、 缺 乏 相应 分 析 等 问题 ， 已 难以 满足 天 文 研 究 工 作 的 需要 。 基 于 
面向 文档 数据 库 、 全 文 检 索 、 语 法 分 析 、Web 等 技术 ， 设 计 开 发 了 中 国 古 代 天 象 记录 数据 库 ， 
实现 了 对 古代 天 象 记录 中 各 类 科学 和 文史 信息 的 数字 化 存储 与 检索 。 这 一 基础 平台 的 建设 和 研 
发 为 中 国 十 代 天 象 记录 更 好 地 为 全 世界 天 文学 家 服务 ， 促 进 对 十 代 天 象 记录 的 校 勤 、 证 认 、 利 
用 等 多 学 科 交 叉 研 究 打 下 了 基础 。 
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中 国 古 代 天 象 记录 是 传统 天 文学 为 我 们 留 下 的 独 一 无 二 的 宝贵 遗产 。 天 文学 研究 涉及 的 时 
间 尺 度 往 往 较 长 ， 尽 管 现代 天 文 观测 设备 大 大 提高 了 研究 对 象 的 空间 分 辩 率 ， 但 在 时 间 尺 度 上 
a nu uuu ua 
文学 前 沿 理论 ， 如 超新星 爆发 、 太 阳 活 动 与 日 地 关系 、 替 星 等 ， 可 能 提供 有 价值 的 科学 数据 。 
以 历史 超新星 为 例 ， 瑞 典 天 文学 家 克 努 特 。 d: 2 c1 S 
星 记 录 总 表 ， 指 出 中 国 古代 的 客 星 记录 可 能 与 新 星 爆 发 有 关 趾 。20 世 纪 40 年 代 ， 荷 兰 天 文学 家 
简 。 奥 尔 特等 人 i IEE ESAE RITE RIER UREI 
次 超新星 爆发 的 遗迹 中， 再 次 激 起 了 国际 天 文 界 对 中 国 古代 天 象 记 录 的 兴趣 。 随 着 射电 天 文 观 
测 的 兴起 ， 为 了 证 实 超新星 爆发 的 射电 表征 ， 天 文 界 在 上 忆 纪 五 十 年 代 密切 关注 了 中 国 古 代 的 
客 星 记录 。1955 年 ， 文 [3] 率 先 将 中 国 古代 天 象 记 录 与 现代 天 文学 的 观测 源 进行 了 系统 比 对 ， 在 
国际 天 文 界 引 起 强烈 反响 ,此 文 的 引用 数 以 千 计 。 西方 著名 天 文学 家 约瑟夫 ， 什 克 洛 夫 斯 基 中 、 
因 斯 特 。 欧 皮 克 叫 、 奥 托 。 斯 特 鲁 维 四 、 弗 里 菊 。 效 威 基 [ 等 人 均 使 用 中 国 古 代 天 象 记录 进行 过 
研究 。 在 国内 ， 紫 金山 天 文 台 张钰 哲 先 生 久 、 南 京 大 学 汪 珍 如 先生 & 9 、 北 京 天 文 台 李 启 斌 先生 
中 等 一 批 著名 天 文学 家 ， 也 都 曾 专 门 发 表 过 利用 古代 天 象 记录 开展 的 研究 。 

近年 来 ， 天 文学 的 理论 和 观测 手段 进步 迅速 ， 天 文学 界 对 中 国 古 代 天 象 记 录 的 兴趣 有 增 无 
减 。 例如 ， 苏 珊 ， 霍 夫 曼 、 尼 古 劳 斯 ， 福 格 特等 人 提出 了 一 套 分 析 及 证 认 古 代 客 星 记录 的 方法 ， 
除 新 星 和 超新星 遗迹 外 , 行星 状 星 云 、 共生 星 、 脉冲 星 等 其 他 类 型 的 天 体 也 纳入 了 候选 范围 由。 
文 [13] 证 认 了 公元 386 年 的 客 星 记录 对 应 的 现代 天 文 观测 源 。 文 [14] 根 据 古 代 日 食 记 录 研 究 了 地 
球 自转 的 长 周期 变化 。 
与 之 形成 鲜明 对 比 的 是 , 中 国 古 代 天 象 记录 的 整理 与 校勘 仍然 停留 在 上 世纪 八 十 年 代 末 《中 
EX Sume» P 〈 以 下 简称 《总 集 》) 的 水 平 。《 总 集 》 是 上 世纪 七 十 年 代 至 八 十 年 
代 末 集 全 国力 量 完成 的 重要 成 果 ， 对 中 国 古 代 太 阳 黑 子 、 极 光 、 陨 石 、 日 食 、 月 食 、 月 掩 行星 、 
新 星 和 超新星 共 10 个 类 别 的 天 象 记录 做 了 全 面 的 收集 和 整理 。 但 从 如 今 的 视角 来 看 ，《 总 集 》 
已 远 不 能 满足 天 文学 研究 工作 的 需要 ， 存 在 诸多 问题 : 从 科学 应 用 的 角度 来 说 ，《 总 集 》 中 收 
集 的 天 象 记录 仅 给 出 了 原始 文本 ， 缺 少 上 下 文 及 对 其 科学 参数 的 辨析 与 考证 ， 难 以 应 用 于 现代 
天 文学 研究 , 没有 提供 英文 翻译 ， 也 不 便于 国外 研究 人 员 的 使 用 ; 从 出 版 形式 上 来 说 ，《 总 集 》 
作为 纸 质 书籍 ， 在 检索 上 不 够 方便 ， 另 外 目前 也 已 绝版 ， 导 致 可 利用 度 不 高 ， 最 后 ， 从 文献 学 
的 角度 来 说 ，《 总 集 》 中 收集 的 天 象 记录 不 够 全 面 ， 遗 漏 较 多 ， 即 使 在 已 收集 的 天 象 记录 中 ， 
文本 错误 也 很 普遍 ， 此 外 ，《 总 集 》 只 标注 了 卷 页 号 ， 却 未 说 明 使 用 的 文献 版 本 ， 给 使 用 者 的 
进一步 查询 、 核 对 造成 了 困难 。 

针对 上 述 问题 ， 近 年 来 学 界 呼 吁 将 数字 化 手段 引入 中 国 古 代 天 象 记录 的 整理 工作 ， 并 对 记 
录 的 关键 科学 参数 进行 定量 分 析 。 如 在 2013 年 香山 科学 会 议 第 482 次 讨论 会 上 ， 与 会 专家 认为 应 
尽快 对 中 国 古 代 天 象 记录 进行 全 面 整理 ， 建 立 古 代 天 象 记 录 数 据 库 和 相关 的 应 用 研究 平台 。 
由 此 可 见 ， 若 能 借助 现代 信息 技术 建立 一 套 中 国 古 代 天 象 记录 的 数字 化 检索 与 整理 平台 ， 
面向 全 世界 的 天 文 研 究 者 开放 使 用 ， 将 对 进一步 挖掘 古代 天 象 记录 的 科学 应 用 价值 、 推 进 天 象 
记录 的 整理 、 加 强 文化 自信 具有 重要 意义 。 本 文 详细 分 析 了 古代 天 象 记录 检索 、 整 理 过 程 中 的 
功能 需求 ， 并 在 此 基础 上 ， 运 用 面向 文档 数据 库 、 全 文 检 索 、 语 法 分 析 、Web 等 技术 ， 设 计 并 
开发 了 中 国 古 代 天 象 记录 数据 库 , 本 文 主要 介绍 其 设计 与 实现 方法 , 并 展示 了 系统 的 运行 效果 。 


1 系统 功能 需求 分 析 
中 国 古 代 天 象 记录 数据 库 的 核心 目标 是 借助 信息 技术 手段 ， 为 用 户 提供 便捷 的 天 象 记录 检 


索 和 数据 库 管 理 功能 ， 使 其 成 为 中 国 古 代 天 象 记录 的 数字 化 检索 与 整理 平台 。 为 此 ， 系 统 可 按 
照 业务 功能 划分 为 天 象 记录 检索 和 数据 库 管 理 两 大 功能 版 块 ， 如 图 1。 
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图 1 中 国 古 代 天 象 记录 数据 库 功 能 结构 图 


Fig.1 The Functional structure diagram of Chinese Ancient Celestial Phenomenon Catalogue 


2.1 天 象 记录 检索 功能 

天 象 记 录 检 索 功 能 面向 数据 库 的 一 般 使 用 者 。 古 代 天 象 记 录 中 包含 丰富 的 科学 和 史料 信息 ， 
这 些 信息 的 结构 、 类 型 多 样 ， 是 典型 的 异 构 数据 。 此 外 ， 由 于 古代 天 象 记录 研究 具有 交叉 学 科 
的 属性 ， 因 此 ， 数 据 库 面 向 的 一 般 用 户 群 体 是 多 样 的 ， 主 要 包括 天 文 研究 人 员 和 文史 研究 人 员 
两 大 类 ， 他 们 对 于 古代 天 象 记录 的 信息 需求 也 不 同 。 天 文 研究 人 员 的 关注 重点 在 于 天 象 记录 中 
的 科学 信息 ， 如 天 象 对 应 的 现代 天 文 观测 源 、 天 象 发 生 的 位 置 及 颜色 、 亮 度 等 信息 。 而 文史 研 
究 人 员 则 更 关注 天 象 的 记载 文字 、 文 献 出 处 等 文本 信息 。 

为 满足 不 同类 型 用 户 , 对 古代 天 象 记录 中 异 构 数据 的 多 样 化 检索 需求 ， 数 据 库 应 提供 以 下 8 
种 相关 功能 ， 解 决 以 往 天 象 记录 整理 成 果 难 以 检索 的 问题 。 

(1) 语法 检索 : 数据 库 应 提供 一 种 领域 专用 语言 DSL (Domain Specific Language) ， 文 持 
字符 串 、 列 表 、 数 字 等 基本 数据 类 型 以 及 与 、 或 、 非 等 逻辑 运算 ,以 满足 用 户 的 复杂 查询 需求 。 
D ERA: 对 于 天 象 记录 中 的 纯 文本 信息 ， 如 文献 记载 内 容 、 文 献 来 源 等 ， 数 据 库 应 
提供 全 文 检索 服务 。 同 时 ， 为 提高 检索 的 查 准 率 和 查 全 紊 ， 数 据 库 应 支持 准确 和 模糊 两 种 全 文 
检索 类 型 。 

(3) EERE: 对 于 天 象 记录 中 的 天 区 位 置信 息 ， 数 据 库 应 提供 天 文 数据 库 中 常用 的 锥 形 
检索 服务 ， 用 户 输 入 天 区 的 赤 经 、 赤 纬 及 角 半 径 ， 即 可 检索 出 发 生 在 该 天 区 内 的 天 象 记 录 。 

(4) 地 理 位 置 检索 : 天 象 记录 中 除 天 区 位 置 外 ， 还 包括 另 一 类 位 置信 息 ， 即 记录 观测 的 地 
理 位 置 ， 对 此 ， 数 据 库 也 应 具备 检索 能 力 。 

(5 结构 化 检索 : 对 于 天 象 记录 中 的 结构 化 信息 , 如 天 象 的 开始 与 结束 时 间 、 天象 类 型 等 ， 
数据 库 应 提供 结构 化 检索 服务 。 

(6) 检索 结果 展示 : 数据 库 需 将 检索 的 结果 ， 以 表格 或 列表 的 形式 向 用 户 展 示 。 

(7) 检索 结果 聚合 : 数据库 应 支持 检索 结果 聚合 ， 对 检索 结果 做 简单 的 统计 分 析 ， 得 到 结 
果 概 览 ， 从 而 帮助 用 户 快 速 了 解 检索 结果 的 整体 情况 ， 用 户 也 可 以 根据 聚合 信息 对 结果 做 进 
zd. 

(8) 检索 结果 排序 : 数据 库 可 以 按照 某 种 标准 对 检索 结果 进行 排序 ， 从 而 提高 用 户 的 检索 
效率 。 

2.2 数据 库 管 理 功能 

除 面向 一 般 使 用 者 的 检索 功能 ， 数 据 库 还 应 为 数据 库 管 理 者 提供 天 象 记录 和 用 户 管理 的 功 

能 ， 包 括 添 加 记录 、 删 除 记 录 、 编 辑 记录 及 用 户 注册 、 登 录 、 信 息 修 改 、 删 除 等 功能 。 


3 系统 架构 与 实现 
如 图 2, 中 国 古 代 天 象 记录 数据 库 采 用 基于 前 后 端 分 离 模式 的 浏览 器 /服务 器 架构 (Browser / 


Server Architecture) 实现 ， 自 底 向 上 由 数据 存储 模块 、 后 端 模 块 和 前 端 模 块 组 成 。 数 据 存储 模 
块 为 整个 数据 库 系统 提供 记录 持久 化 存储 与 底层 记录 检索 服务 的 支持 。 后 端 模 块 主要 通过 数据 
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存储 模块 提供 的 基本 存储 与 检索 服务 ， 实 现 天 象 记录 检索 和 数据 库 管 理 等 核心 业务 逻辑 。 前 端 


模块 负责 整个 数据 库 系统 的 最 终 呈 现 ， 是 用 户 与 数据 库 系统 之 间 的 交互 接口 。 
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图 2 中 国 古 代 天 象 记录 数据 库 系 统 架 


Fig.2 The system architecture diagram of Chinese Ancient ac Phenomenon Catalogue 


3.1 数据 存储 模块 


该 部 分 需要 选 定 系统 的 存储 方案 ， 并 确定 记录 的 一 般 存 储 格式 。 


3.1.1 存储 方案 


从 记录 存储 的 角度 来 说 ， 天 象 记录 中 各 字段 属性 的 内 聚 性 3 
间 很 少 复 用 , 比较 适合 采用 将 一 个 对 象 的 所 有 信息 存储 在 单一 文档 中 的 文档 数据 模型 进行 描述 ， 
不 适合 采用 传统 的 关系 数据 模型 , 因此 , 本 系统 选用 面向 文档 的 数据 库 MongoDB 作 为 主 数据 库 。 


虽 ， 同 一 字段 属性 值 在 不 同 记 录 


但 从 记录 检索 的 角度 来 讲 ， 天 象 记录 中 存在 较 多 的 文本 字段 ， 因 此 对 数据 库 的 全 文 检索 能 
力 有 较 高 的 要 求 ， 而 MongoDB 和 传统 的 关系 型 数据 库 对 全 文 检索 的 支持 均 较 差 ， 难 以 满足 天 象 
记录 全 文 检索 这 一 核心 业务 需求 。 天 文 文献 全 文 检索 系统 1 与 本 系统 的 场景 较为 类 似 ， 该 系统 
采用 Lucene 检 索引 擎 实现 全 文 检 索 ， 但 直接 使 用 Lucene 引 擎 十 分 复杂 ， 目 前 开发 中 很 少 直接 应 
用 ,因此 本 系统 采用 基于 Lucene 的 全 文 检索 引擎 Elasticsearch 提 供 


记录 检索 服务 , 该 引擎 对 Lucene 


进行 封装 ， 提 供 了 方便 易 用 的 接口 及 对 海量 数据 的 存储 、 检 索 能 力 ， 是 目前 最 为 流行 的 全 文 检 


索 解 决 方案 。 对 全 文 检索 服务 来 说 ， 决 定 其 结果 碍 准 率 和 碍 全 率 的 关键 因素 是 对 搜索 条 件 及 天 


RT 


象 记录 原始 文本 的 分 词 效果 ， 本 系统 采用 中 文 自然 语言 处 天 


具 包 HanLP 作 为 分 词 器 。 另 外 ， 


考虑 到 天 象 记录 中 存在 诸多 古 天 文 专 有 名 词 ， 系 统 添加 了 根据 《中 国 古 代 天 文学 词典 》- “制作 


的 分 词 字典 作为 补充 。 


语言 


MongoDB 和 Elasticsearch 之 间 通 过 Monstache 实 现 天 象 记录 数据 的 同步 ,Monstache 是 基于 Go 


言 编写 的 开源 MongoDB 和 Elasticsearch 实 时 同步 工具 。 当 管理 者 对 天 象 记录 做 添加 、 编 辑 、 删 


除 操作 时 ，Monstache 将 基于 MongoDB 的 oplog 日 志 机 制 将 对 天 象 记录 的 改动 同步 至 Elasticsearch 


引擎 ， 从 而 保证 MongoDB 和 Elasticsearch 之 间 数 据 的 一 致 性 。 
此 方案 也 实现 了 数据 存储 模块 的 主 从 复制 和 读 写 分 离 。 由 MongoDB 数 据 库 作 为 主 数据 库 ， 
处 理 增 删改 等 数据 库 管 理 类 请 求 ， 而 Elasticsearch 则 作为 从 数据 库 ， 处 理 对 数据 库 的 各 类 检索 请 


求 ， 从 而 提高 了 记录 存储 的 元 余 性 和 系统 的 可 用 性 。 
3.1.2 数据 库 字段 


数据 库 系统 最 基础 的 是 数据 存储 的 格式 ， 这 直接 关系 到 数据 库 的 信息 容量 及 日 后 使 用 、 


Dh 


理 的 效率 和 难度 ， 数 据 库 的 详细 字段 设计 如 表 1， 其 中 标 有 “zh/en” 的 字段 均 包 含 “zh hant". 
“en” 两 个 子 字段 。 


表 1 数据 库 字段 设计 
Table 1 The database fields design table 


Field Data type Description 

_id ObjectId Record ID 

celestial body String Corresponding modern astronomical observation source 
record.image String Photograph of the page containing the record 

record.source String Source (zh/en) 

record.source.version String Version of the source (zh/en) 

record.source.page Integer Page number 

record.content String Text content of the record (zh/en) 

record.note String Note (zh/en) 

phenomenon.types Array[String] Types of the phenomenon 

phenomenon.location.equ coord Array[Array[Double]] Location of the phenomenon described in equatorial coordinates 
phenomenon.location.text String Location of the phenomenon described in text(zh/en) 
phenomenon.start time.common era Date Start time of the phenomenon described in C.E.(Common Era) 
phenomenon.start time.text String Start time of the phenomenon described in text (zh/en) 
phenomenon.end time.common era Date End time of the phenomenon described in C.E.(Common Era) 
phenomenon.end time.text String End time of the phenomenon described in text (zh/en) 
phenomenon.size.angular diameter Double Size of the phenomenon described in angular diameter 
phenomenon.size.text String Size of the phenomenon described in text (zh/en) 
phenomenon.brightness.mag Double Brightness of the phenomenon described in magnitude 
phenomenon.brightness.text String Brightness of the phenomenon described in text (zh/en) 
phenomenon.color.bv Double Color of the phenomenon described in B-V color index 
phenomenon.color.text String Color of the phenomenon described in text (zh/en) 
observer.location.geo coord Object(GeoJSON) Observation location described in GeoJSON''! 
Observer.location.text String Observation location described in text (zh/en) 

refs Array[String] List of references 


与 之 前 的 整理 工作 相 比 ， 本 数据 库 不 仅 要 包含 存储 原始 文献 文本 的 字段 ， 更 要 有 存储 天 象 
记录 科学 参数 化 描述 的 字段 ， 例 如 天 象 记录 的 时 间 、 位 置 、 亮 度 和 颜色 等 。 同 时 ， 为 方便 国外 
研究 人 员 的 使 用 ， 提 高 数据 库 的 国际 化 水 平 ， 记 录 中 的 各 项 文本 信息 还 需要 预 留存 储 英 文 翻译 
的 字段 。 另 外 ， 为 方便 研究 者 的 查询 参考 ， 数 据 库 中 还 会 包括 相关 文献 字段 ， 将 相关 应 用 研究 
成 果 进 行 索引 。 为 满足 上 述 需 求 , 本 数据 库 的 字段 由 证 认 天 体 (celestial_ body)、 文 献 记载 (record)、 
天 象 (phenomenon) 、 观 测 者 (observer) 和 相关 文献 (refs). 等 6 部 分 组 成 ， 每 部 分 又 包含 若干 
子 字段 。 

3.2 后 端 模块 

该 模块 需 根据 MongoDB 与 Elasticsearch 提 供 的 基本 语法 , 实现 天 象 记录 检索 和 数据 库 管理 等 
功能 。 考 虑 到 Elasticsearch 对 系统 资源 的 消耗 已 经 较 高 ， 所 以 后 端 选用 高 性 能 的 Rust 语 言 s 
。 该 语言 采用 所 有 权 和 生命 周期 模型 实现 内 存 管 理 ， 没 有 运行 时 开销 和 垃圾 回收 ， 在 保证 高 
靠 性 和 内 存 安 全 性 的 基础 上 ， 有 具有 极 高 的 性 能 。 同 时 其 语法 特性 丰富 ， 有 优秀 的 表达 能 力 ， 
此 ， 在 运行 效率 和 开发 效率 之 间 达 到 较 好 的 平衡 。 具 体 的 Web 框 架 采 用 了 基于 Rust 语 言 编写 
里 两 个 子 模块 构成 。 


— 


~ 


zi ds 


高 性 能 异步 框架 Axum。 后 端 模 块 由 天 象 记录 检索 和 数据 库 管 
.2.1 天 象 记录 检索 子 模块 
天 象 记录 检索 子 模块 主要 处 理 用 户 的 检索 请 求 ， 并 完成 对 检索 结果 的 聚合 、 排 序 ， 实 现 对 
中 国 古 代 天 象 记录 的 数字 化 检索 。 该 模块 又 包含 语法 检索 、 检 索 结 果 排 序 、 检 索 结果 聚合 3 个 子 
模块 。 其 中 , 语法 检索 模块 定义 了 一 种 专门 用 于 天 象 记录 检索 的 领域 专用 语言 DSL 及 其 解析 器 ， 
作为 数据 库 的 基本 检索 框架 。 对 于 前 端 模块 传 入 的 DSL 检 索 语句 ， 语 法 检索 模块 的 解析 器 将 进 
行 语法 分 析 ， 并 根据 分 析 结 果 得 到 的 用 户 检 索 的 字段 类 型 ， 调 用 不 同 的 检索 接口 ， 生 成 相应 的 
Elasticsearch 检 索 和 聚合 语句 ， 并 提交 Elasticsearch 引 擎 执行 ， 得 到 检索 和 聚合 结果 。 同 时 按照 用 
户 指定 的 排序 方式 ， 对 检索 的 结果 进行 排序 。 相 关 流 程 如 图 3。 


"MH 
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Sort method 
Retrieval statement 
Parse the statement by PEG 


Astronomical Geographic 
location location 


Geographic 


Full-text 
retrieval 


Structured 
infomation 


Structured 


location retrieval retrieval 


and aggregation statement 


Submit to Elasticscarch 


图 3 天 象 记录 检索 
Fig.3 The flowchart End 


function 


通常 来 说 ， 简 单 的 DSL 语 法 定义 及 分 析 可 以 通过 


Generate the Elasticsearch retrieval 


ChinaXiv 合 作 期 刊 


功能 流程 


of the celestial phenomenon records retrieval 


E 则 表达 式 完成 ， 但 由 于 DSL 语 法 需 支 持 


多 种 数据 类 型 及 逻辑 运算 ， 使 用 正则 表达 式 难 以 表达 复杂 的 语法 结构 ， 因 此 本 数据 库 采 用 表达 
能 力 更 强 的 解析 表达 文法 PEG (Parsing Expression Grammar) 029 表 达 DSL 语 法 。 与 同样 经 常用 于 


表达 复杂 语法 的 上 下 文 无 关 文法 CFG (Context Free Grammar) 相 比 ，PEG 的 语法 规则 本 身 便 是 
解析 规则 ， 而 非 生成 规则 ， 故 可 以 直接 用 于 语法 分 析 中 ， 且 消除 了 二 义 性 ， 更 适合 本 数据 库 系 


统 注重 语法 分 析 ， 以 将 DSL 语句 转化 为 Elasticsearch 检 索 和 聚合 语 


DSL 检 索 语句 由 检索 表达 式 Expr 及 其 通过 与 (and) 、 或 Cor . dE ot) 逻辑 运算 符 的 


接 组 成 ， 检 索 表 达 式 Expr 的 一 般 形式 为 


Expr — Field MatchOp Value # 
HB. Fielddézs MARRE MatchOpzEzsVUUBGTI, LERF OO . DF CO 、 判 等 3 
种 匹配 运算 ， 判 等 运算 分 为 模糊 匹配 〈:) 和 精确 匹配 (=) 两 种 类 型 ，Value 表 示 值 ， 支 持 字符 
$ CString) 、 浮 点 数 (Double ) 、 日 期 (Date) 和 列表 D 等 多 种 数据 类 型 。 检 索 表 达 式 的 


表 2 检索 表达 式 语 法 表 


Table 2 The search expression syntax table 


Match 


Field Operator Data type of value Description 
cName n= String, String[] 
rSource = String, String[] 
rContent = String, String[] 
pType = String, String[] 


Retrieve records in the specified source 
Retrieve records containing the specified text 
Retrieve records with the specified types 


名 的 场景 。 


d 


(1) 


详细 定义 如 表 2， 其 中 列表 类 型 由 “单元 类 型 0] ”表示 ， 如 String[] 表 示 字 符 串 列表 。 


Retrieve records corresponding to the specified astronomical observation source 


rib NT IN. 
ChinaX Iva 


Ühe Double[ra, dec, radius] Retrieve records of phenomena occurring at the specified location by cone search 
P - String, String Retrieve records of phenomena occurring at the specified location described in text 
Time => Date Retrieve records of phenomena occurring in the specified time described in C.E. 
P = String, String Retrieve records of phenomena occurring in the specified time described in text 
Size => <x Double Retrieve records of phenomena with the specified size described in angular diameter 
P - String, String Retrieve records of phenomena with the specified size described in text 
Brightness => Double Retrieve records of phenomena with the specified brightness described in magnitude 
pong = String, String Retrieve records of phenomena with the specified brightness described in text 
Color m,» Double Retrieve records of phenomena with the specified color described in B-V color index 
P - String, String Retrieve records of phenomena with the specified color described in text 
olo Double[lon, lat, radius] Retrieve records observed in the specified location described in coordinates 
- String, String Retrieve records observed in the specified location described in text 


3.22 数据 库 管 理子 模块 
数据 库 管 理子 模块 面向 数据 库 的 管理 者 ， 提 供 中 国 古 代 天 象 记录 的 数字 化 整理 服务 ， 该 模 
块 又 分 为 用 户 管理 和 记录 管理 两 个 子 模块 。 
(1) 用 户 管理 : 实现 用 户 管理 的 核心 为 权限 认证 机 制 。 考 虑 到 本 系统 是 日 后 天 文学 史 系 列 
数字 化 工具 的 一 部 分 ， 因 此 存在 跨 域 认证 的 需求 。 为 使 各 数字 化 工具 间 的 用 户 系 统 能 够 互通 ， 
一 本 系统 采用 了 目前 较为 流行 的 跨 域 认 证 方案 JWTGUSON Web Token)。JWT 的 基本 原理 是 ， 用 户 
凭借 用 户 名 、 密 码 或 其 他 安全 赁 证， 向 服务 器 发 起 认证 请 求 ， 服 务 器 认证 通过 后 ， 向 用 户 返 回 
由 服务 器 签名 过 的 安全 令 牌 。 此 后 ， 用 户 再 与 服务 器 通信 ， 访 问 需要 认证 的 服务 时 ， 便 可 凭借 
此 安全 令 牌 证 明 自 己 的 身份 ， 服 务 器 端 也 仅 通过 此 安全 令 牌 认定 用 户 身份 。 因 此 与 传统 的 基于 
Session、Cookie 的 认证 方案 相 比 ，JWT 方 案 下 的 服务 器 端 除 用 于 签名 的 密 钥 外 ， 是 无 状态 的 ， 
可 以 方便 地 实现 跨 域 扩展 ， 同 时 也 减轻 了 服务 器 的 压力 ， 提 高 了 认证 系统 的 可 用 性 。 目 前 ， 数 
据 库 的 用 户 系 统 仅 面 向 数据 库 管 理 用 户 ， 尚 未 面向 普通 用 户 开 放 ， 用 户 注 册 为 邀请 制 ， 用 户 可 
以 自主 修改 用 户 名 、 密 码 等 信息 ， 但 对 用 户 的 删除 操作 需要 超级 管理 员 完 成 。 
(2) 记录 管理 : 用户 在 通过 登录 认证 后 ， 便 可 对 天 象 记录 进行 添加 、 删 除 和 编辑 等 管理 操 
作 。 修 改 操作 提交 至 MongoDB 数 据 库 执行 完毕 后 ， 由 Monstache 基 于 MongoDB 数 据 库 的 oplog 机 
制 同步 至 Elasticsearch 生 效 。 
3.3 前 端 模块 
前 端 模块 是 用 户 与 数据 库 系 统 的 交互 接口 ， 本 数据 库 系统 采用 Vue3 和 基于 Vue3 的 组 件 库 
Element Plus 开发 了 一 套 便于 用 户 使 用 的 交互 界面 。 前 端 模 块 与 后 端 模块 之 间 基 于 RESTful API 
接口 和 Ajax 通信 方式 ， 采 用 JSONdavaScript Object Notation) 数 据 格式 进行 交互 。 前 端 页 面 可 分 
为 前 台 与 后 台 两 大 类 , 其 中 前 台 页 面 又 包括 首页 、 检索 页 和 记录 详情 页 , 后 台 页 面包 括 登 录 页 、 
记录 管理 页 和 用 户 管理 页 。 


A 


um 


4 系统 展示 


最 终 实 现 的 中 国 古 代 天 象 记录 数据 库 部 署 在 了 CPU 为 Intel Xeon Silver 4210R@2.4GHz， 内 
存 为 128GB， 操 作 系 统 为 Debian 10 的 环境 中 。 目 前 已 根据 《总 集 》， 录 入 了 720 条 示例 数据 。 图 
4- 图 6 为 系统 前 台 页 面 的 测试 截图 。 
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首页 “数据库 ”相关 研究 ”帮助 关于 次 


所 有 文本 字段 


“绍兴 元 年 二 月 已 卯 ， 日 中 有 黑子 如 李 大 ..… ”一 一 《 宋 史 : 卷 五 十 二 志 第 五 天 文 五 :日 名》 


中 国 科学 院 国家 : inese Academy of Sciences 
图 4 中 国 古 代 已 录 数据 库 首页 
Fig.4 The Chinese Ancient Celestial Phenomenon Catalogue index page 


图 5 为 在 数据 库 中 检索 记载 内 容 包 含 “ 客 星 ” 或 “ 周 伯 星 ” 且 证 认 天 体 为 “SN 1006" , X 
型 为 “新 星 / 超 新 星 ” 的 天 象 记录 的 结果 。 数 据 库 检索 页 面 自 上 而 下 为 导航 栏 、 搜 索 栏 、 排 序 方 
式 选择 栏 、 结 果 返 回 面 板 ， 结 果 返 回 面板 自 左 至 右 为 检索 结果 聚合 面板 和 检索 结果 展示 面板 。 

用 户 可 以 在 导航 栏 中 切换 网 页 使 用 的 语言 ， 若 选择 使 用 英文 ， 也 将 显示 记录 中 各 字段 的 英 
文 翻译 ， 方 便 国外 学 者 的 使 用 。 对 于 检索 结果 ， 提 供 了 结果 高 党 功能 ， 命 中 的 关键 词 以 加 粗 红 
色 字 标 出 。 在 录入 示例 数据 的 过 程 中 ， 补 充 了 部 分 记录 在 文献 中 的 上 下 文 ， 如 茶 天 象 发 生前 后 
的 历史 事件 等 ， 这 对 于 研究 者 判定 记录 的 可 信 度 等 有 重要 的 作用 。 但 这 也 造成 了 用 户 难以 快速 
锁定 天 象 记录 本 身 ， HAS SA S Ae ILS DI BUS OS SUR UB, 提高 用 户 的 查阅 效率 。 


runs * atto wn m" ER " t = ess mor pn 
- — — p erur -" 
m Q 检索 结果 i n m " - —— amenas 
- NUS — p— ananas 
> | 
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加 CTE LR. 
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图 5 中 国 古 代 天 象 记录 数据 库 检 索 页 .(a) 表 格 模式 ; (b) 列 表 模式 


Fig.5 The Chinese Ancient Celestial Phenomenon Catalogue search page. (a)table mode ; (b) list mode 


对 于 检索 结果 的 展示 ， 系 统 提供 Ts 一 是 如 图 5 a) 的 表格 方式 ， 该 方式 显示 的 
信息 密度 较 高 ， 用 户 可 以 快速 查看 记录 信息 。 但 对 于 单一 的 记录 来 说 ， 表 格 的 显示 方式 为 横向 
显示 , 这 导致 部 分 信息 量 较 大 的 记录 难以 完全 旺 现 ， 不 便于 用 户 查 看 。 因此 除 表 格 显 示 模 式 外 ， 
系统 还 提供 了 如 图 5 (b) 的 竖 向 显示 的 列表 模式 ， 方 便 用 户 读 取 检 索 结果 。 
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为 降低 用 户 的 检索 难度 ， 本 系统 并 未 直 
接 将 语法 检索 模块 暴露 给 用 户 ， 而 是 进行 了 
不 同 程度 的 封装 。 按 使 用 的 难 易 程 度 ， 由 易 
到 难 提 供 了 简单 检索 、 高 级 检索 、 语 法 检索 


三 种 方式 。 简 单 检索 仅 能 选择 检索 字段 ， 不 
支持 逻辑 运算 符 连接 , 如 图 4 首页 中 的 便 是 简 : 
单 检 索 ， 图 5 (a) PHARRR RME 
个 检索 条 件 , 不 同 检索 条 件 之 间 可 以 使 用 与 、 
或 、 非 等 逻辑 运算 符 连 接 ， 表 达 比 简单 检索 


用 户 可 直接 输入 检索 语句 进行 检索 ， 如 图 5 


更 为 复杂 的 检索 逻辑 ; i 
(b) 。 
在 检索 结果 页 中 ， 


吾 法 检索 则 最 为 灵活 ， 


用 户 只 能 查看 记录 的 


部 分 信息 ， 为 查询 记录 全 部 字段 的 信息 ， 用 
户 可 以 点 击 检索 结果 页 中 感 兴趣 的 记录 条 目 ， 


II TD 


进入 记录 详 ' 情 页 W, 如 


5 总 结 与 展望 


中 国 古 代 天 象 记录 数据 库 综合 运用 面向 文档 数据 库 、 
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图 6 中 国 古代 天 象 记录 数据 库 记 录 详情 页 


Fig.6 The Chinese Ancient Celestial Phenomenon Catalogue detailed record page 


全 文 检索 、 iB 法 分 析 、 Web 等 技术 ， 


实现 了 对 古代 天 象 记录 的 数字 化 检索 与 整理 , 与 过 去 的 天 象 记录 整理 成 果 相 比 , 具有 检索 方便 、 


更 新 及 时 、 考 虑 了 记录 中 的 科学 参数 、 国 际 化 程度 较 高 
但 是 ， 目 前 数据 库 仍然 有 不 足 之 处 。 接 下 来 ， 


将 逐步 开放 面向 普通 | 


等 优势 。 


j 户 的 用 户 系 统 ， 普 通 
A 


用 户 登 录 后 可 以 申请 提交 数据 库 中 未 收纳 的 记录 条 目 ， 或 对 已 有 条 目 提出 修改 意见 ， 并 由 后 台 


FE 数据 库 


管理 人 员 进 行 审核 ， 从 而 借助 用 户 系统 加 管理 员 审 核 的 方式 ， 以 类 似 wiki 的 模式 ， 修 ] 


确保 异 构 数 据 的 一 致 性 。 此 外 也 将 具有 个 人 记录 图 书馆 的 功能 ， 用 户 可 根据 研究 需 


创建 多 个 记录 图 书馆 ， 从 而 支持 天 象 记 录 的 个 性 
”对 于 《总 集 》 中 剩余 的 一 万 余 条 天 象 


限 ，《 总 集 》 在 整理 


化 整理 和 应 用 。 


过 程 中 有 较 多 遗漏 ， 并 且 随 着 近年 来 古籍 整理 和 考古 工作 的 开展 ， 


世 古 籍 和 出 土 文献 不 断 涌现 ， 其 中 也 包含 了 大 量 的 天 象 记 录 。 对 于 这 些 《 和 总 集 》 遗 ) 


见 的 天 象 记录 ， 数 据 库 也 将 跟 进 补充 。 


此 外 ， 数 据 库 将 进一步 改善 用 户 界 面 和 检索 逻辑 ， 


在 的 其 他 问题 ， 更 好 地 为 使 用 中 


成 为 动态 更 新 的 中 国 古 代 天 象 记录 应 用 研究 平台 。 
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Abstract: Chinese ancient celestial phenomenon records are the unique astronomical observation 
data in the world, which have important scientific value. In recent years, with the rapid development 
of astronomical observations and theories, there have been many new advances in the research of 
historical supernovae and solar activity cycle. In contrast, the compilations of ancient celestial 
phenomenon records are still at the level of the late 1980s, and there are defects in the information 
utilization, such as inconvenient retrieval, and lack of corresponding analysis, which can hardly satisfy 
the needs of astronomical research. In this paper, the Chinese Ancient Celestial Phenomenon 
Catalogue based on document-oriented database, full-text retrieval, grammatical analysis and Web 
technologies has been designed and implemented. The catalogue realizes the digital storage and 
retrieval of various scientific and historical information in ancient celestial phenomenon records. 
Through the construction and development of this basic platform, Chinese ancient celestial 
phenomenon records will be more accessible to astronomers around the world, and promote the 
intercross research of collation, verification and utilization of ancient celestial phenomenon records. 
Key words: ancient celestial phenomenon record; database; web technology 


